Causal discovery for purely observational, categorical data is a long-standing challenging problem. Unlike continuous data, the vast majority of existing methods for categorical data focus on inferring the Markov equivalence class only, which leaves the direction of some causal relationships undetermined. This paper proposes an identifiable ordinal causal discovery method that exploits the ordinal information contained in many real-world applications to uniquely identify the causal structure. The proposed method is applicable beyond ordinal data via data discretization. Through real-world and synthetic experiments, we demonstrate that the proposed ordinal causal discovery method combined with simple score-and-search algorithms has favorable and robust performance compared to state-of-the-art alternative methods in both ordinal categorical and non-categorical data. An accompanied R package OrdCD is freely available on CRAN and at https://web.stat.tamu.edu/~yni/files/OrdCD_1.0.0.tar.gz.
translated by 谷歌翻译
我们考虑了上下文匪徒的违规评估(OPE)问题,其中目标是使用日志记录策略收集的数据估计目标策略的值。 ope的最流行方法是通过组合直接方法(DM)估计和涉及逆倾向得分(IP)的校正项而获得的双重稳健(DR)估计器的变型。现有算法主要关注降低大型IPS引起的博士估算器方差的策略。我们提出了一种称为双重强大的新方法,具有信息借用和基于上下文的交换(DR-IC)估计,专注于减少偏差和方差。 DR-IC估计器用参数奖励模型替换标准DM估计器,该参数奖励模型通过依赖于IPS的相关结构从“更近的”上下文中借用信息。 DR-IC估计器还基于特定于上下文的切换规则在该修改的DM估计器和修改的DR估计器之间自适应地插值。我们对DR-IC估算员的表现提供了可证明的保证。我们还展示了DR-IC估计的卓越性能与艺术最先进的OPE算法相比,在许多基准问题上的算法相比。
translated by 谷歌翻译
准确的交通预测对于智能运输系统至关重要。尽管许多深度学习模型已经达到了最新的1小时交通预测,但长期交通预测跨越多小时仍然是一个重大挑战。此外,大多数现有的深度学习流量预测模型都是黑匣子,提出了与解释性和解释性有关的其他挑战。我们开发了图形金字塔自动构造(X-GPA),这是一种基于注意力的空间 - 速率图神经网络,使用了新型金字塔自相关注意机制。它可以从图表上的长时间序列中学习,并提高长期流量预测准确性。与几种最先进的方法相比,我们的模型可以实现高达35%的长期流量预测准确性。 X-GPA模型的基于注意力的分数提供了基于交通动态的空间和时间解释,这些解释会改变正常与高峰时段的流量以及工作日与周末流量的变化。
translated by 谷歌翻译
使用来自环路检测器传感器的数据,用于高速公路中交通事故的近实时检测对避免主要交通拥堵至关重要。虽然最近的监督机器学习方法通​​过利用人类标记的入射数据提供事件检测的解决方案,但误报率通常太高而无法在实践中使用。具体而言,事故的人类标签的不一致显着影响了监督学习模型的表现。为此,我们专注于一种以数据为中心的方法来提高准确性,降低高速公路上交通事故检测的误报率。我们开发了一个弱监管学习工作流程,为没有地面真理标签的入射数据生成高质量的训练标签,我们在监督学习设置中使用这些生成的标签进行最终检测。这种方法包括三个阶段。首先,我们介绍一个数据预处理和策策流水线,用于处理流量传感器数据,通过利用标签函数来生成高质量的培训数据,这可以是域知识相关或简单的启发式规则。其次,我们使用三个监督学习模型 - 随机森林,k最近邻居和支持向量机集合和长短期内存分类器来评估由弱监管生成的培训数据。结果表明,在使用受弱监管生成的培训数据后,所有模型的准确性都会显着提高。第三,我们开发了一种在线实时事件检测方法,在检测事件时利用模型集合和不确定性量化。总体而言,我们表明,我们提出的弱监管学习工作流程实现了高事件检测率(0.90)和低误报率(0.08)。
translated by 谷歌翻译
尽管具有抽象文本摘要的神经序列到序列模型的成功,但它具有一些缺点,例如重复不准确的事实细节并倾向于重复自己。我们提出了一个混合指针发生器网络,以解决再现事实细节的缺点和短语重复。我们使用混合指针发生器网络增强了基于注意的序列到序列,该混合指针发生器网络可以生成词汇单词并增强再现真实细节的准确性和劝阻重复的覆盖机制。它产生合理的输出文本,可以保留输入文章的概念完整性和事实信息。为了评估,我们主要雇用“百拉那” - 一个高度采用的公共孟加拉数据集。此外,我们准备了一个名为“BANS-133”的大型数据集,由133K Bangla新闻文章组成,与人类生成的摘要相关。试验拟议的模型,我们分别实现了胭脂-1和胭脂 - 2分别为0.66,0.41的“Bansdata”数据集,分别为0.67,0.42,为Bans-133k“数据集。我们证明了所提出的系统超过以前的国家 - 近距离数据集的近距离攀义概要技术及其稳定性。“Bans-133”数据集和代码基础将公开进行研究。
translated by 谷歌翻译
医疗AI通过支持基于证据的医学实践,个性化患者治疗,降低成本以及改善提供者和患者体验,推进医疗保健的巨大潜力。我们认为解锁此潜力需要一种系统的方法来衡量在大规模异构数据上的医疗AI模型的性能。为了满足这种需求,我们正在建立Medperf,这是一个开放的框架,用于在医疗领域的基准测试机器学习。 Medperf将使联合评估能够将模型安全地分配给不同的评估设施,从而赋予医疗组织在高效和人类监督过程中评估和验证AI模型的性能,同时优先考虑隐私。我们描述了当前的挑战医疗保健和AI社区面临,需要开放平台,Medperf的设计理念,其目前的实施状态和我们的路线图。我们呼吁研究人员和组织加入我们创建Medperf开放基准平台。
translated by 谷歌翻译
众所周知,即使通过核心点之间捕获数据点之间的相似性,也可以通过捕获相似性来提供准确的预测和不确定性估计,以提供准确的预测和不确定性估计。然而,传统的GP内核在捕获高维数据点之间的相似性时不是非常有效的。神经网络可用于学习在高维数据中编码复杂结构的良好表示,并且可以用作GP内核的输入。然而,神经网络的巨大数据要求使得这种方法在小数据设置中无效。为了解决代表学习和数据效率的冲突问题,我们建议通过使用概率神经网络来学习概率嵌入的深核。我们的方法将高维数据映射到低维子空间中的概率分布,然后计算这些分布之间的内核以捕获相似性。要启用端到端学习,我们可以推导出用于培训模型的功能梯度血清过程。各种数据集的实验表明,我们的方法在监督和半监督设置中占GP内核学习中的最先进。我们还将我们的方法扩展到其他小型数据范例,例如少量分类,在迷你想象网和小熊数据集上以前的方式胜过先前的方法。
translated by 谷歌翻译